基本信息
NYU Depth V2
链接
Indoor Segmentation and Support Inference from RGBD Images
Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture
Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
- Eigen 论文切分方法
 - 使用数据库:NYU Depth V2和KITTI
 - 融合全局和局部信息,提高鲁棒性。本文通过coarse net估计全局depth结构,在更大分辨率上refine。
 贡献:
- 由粗到细的策略。两个网络,粗网络使用全局特征,估计全局结构;精细网络使用局部特征,refine结果。
 
- 提出尺度无关的误差。
 
464个场景,249个作为训练集,215个作为测试集。
- 使用NYU Raw,构建训练集。
 - 分辨率下采样1/2。(640x480→320x240)
 - 由于RGB图和depth图采样频率不一致,需要做时间同步。(把一个图像对应多个depth的样本删除)。
 - 使用相机参数对齐RGB图和depth图。
 - 没有深度信息的像素点 mask掉。
 - 为了去除窗子,开着的门和光谱引起的无效区域,也mask掉等于最小值和最大值的区域。
 - 训练集有120K图像,经过均匀化每个场景的样本量,得到220K图像。1200 * 249=298800。
 - 2M 训练coarse net;
 - 1.5M 训练fine net;
 - batch_size:32
 SGD优化算法;lr=0.001
Kitti Raw
- 56个场景,28用于训练,28个用于测试。
 - 每个场景有800张图像;去除汽车静止的图片,避免重复。
 - 左右摄像头数据都使用了,但不做关联。
 - 训练集有20K图像,经过均匀化每个场景的样本量,扩充至40K。
 
使用最近邻上采样,将预测的低分辨率输出 还原到 原始分辨率。
切分带标签的数据集
- train:795
 - test:654
 - https://github.com/janivanecky/Depth-Estimation/tree/master/dataset
 
评价指标如下所示:
